dpo

Learn to Reason _ The way of Baichuan-M1-ClinicReasoning

自 2024 年 9 月以来,大语言模型在推理方面的展现出了惊人的进展。在代码、数学等结果可以被高效验证的领域,大语言模型已经走出实验室走向实践。医疗领域中的临床推理,要求模型基于强大推理能力,将艰深的医学知识灵活的应用到对病人病情的分析和检验检查结果的解读上

模型 推理 deepseek dpo token 2025-09-16 18:50  2

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

近日,浙江大学硕士生张盛佳和所在团队发现:深度推理模型的部分推理过程是不必要的。一方面,目前的深度推理模型在面对一些例如“1+1=?”的简单问题时,也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时,往往能够凭直觉给出答案;另一方面,在一些简单任务

模型 研究 推理 dpo 张盛 2025-09-01 20:57  6

Text2SQL准确率暴涨22.6%!3大维度全拆

技术背景:TEXT2SQL 是将自然语言查询转为 SQL 的任务,经历了基于规则、神经网络、预训练语言模型、大语言模型四个阶段。当前面临提示优化、模型训练、推理时增强三大难题,研究基于 BIRD 数据集展开。

llm sql dpo text2sql bohemia 2025-08-14 10:56  7

驯服大模型幻觉!用7B小模型+RAG,提升用户满意度

抖音作为日活数亿的平台来讲,要想满足用户体验可想而知具有多么大的挑战。在7月25-26日深圳举办的DA数智技术大会上,我们邀请了字节跳动算法专家蔡聪怀老师,他从事AI算法多年,在内容理解、体验智能化等业务场景有丰富的落地经验。届时他将分享大模型助力抖音用户体验

模型 模态 rag 幻觉 dpo 2025-06-28 13:00  12

使用大型语言模型实现反思驱动的长篇文本生成

在当今快速发展的人工智能领域,大型语言模型(LLMs)已经展现出令人惊叹的文本生成能力。然而,当涉及到生成长篇文本时,这些模型仍然面临着巨大挑战,尤其是在保持连贯性、确保逻辑一致性以及随着文本长度增加而维持质量方面。新加坡科技设计大学和清华大学的研究团队在一项

模型 写作 语言 outline dpo 2025-06-09 15:03  12

强化学习如何帮助大语言模型实现自我进化

大型语言模型(LLMs)已经在代码生成领域取得了显著进步,但生成的代码虽然功能正确,却往往存在效率低下的问题。这一研究缺口正是由南洋理工大学、新加坡国立大学、香港大学、西安交通大学和字节跳动的联合研究团队着手解决的。在最近发表的论文《Afterburner:

模型 语言 dpo venus grpo 2025-06-04 16:11  13

OPA-DPO:多模态大模型幻觉难题的高效解决方案

在视觉多模态大语言模型的快速发展中,幻觉问题一直是研究者们关注的焦点。模型生成与输入图像不一致甚至虚假的内容,不仅影响用户体验,也阻碍了多模态技术在实际场景中的落地。对此,微软亚洲研究院和香港中文大学的联合研究团队从直接偏好优化(DPO)入手,提出了 On-P

模型 模态 et 幻觉 dpo 2025-06-04 13:50  10

肺钙化与骨化:发病机制、CT表现及特定疾病

核心内容:肺部高密度表现主要应考虑钙化和骨化,两者常见且有不同的发病机制、组织学和影像学表现。钙化分为转移性肺钙化(MPC,因全身高钙血症)和营养不良性肺钙化(DPC,因局灶性肺损伤)。肺骨化不依赖代谢异常,而与慢性肺疾病引起的成骨细胞转化有关,分结节型(NP

疾病 dpo npo 轴位 mpc 2025-05-24 03:03  12

数据保护官DPO:律师法务如何应对人工智能时代数据合规挑战

为深入探讨数据保护官(DPO)在应对复杂数据安全合规环境中的关键作用及实践路径,深圳数智引领科技有限公司于近期成功举办了一场以 “数据保护官DPO:律师法务如何应对人工智能时代数据合规挑战” 为主题的沙龙活动,汇聚了众多行业精英、专家学者以及企业代表,共同为数

法务 人工智能 律师 数据安全 dpo 2025-05-16 18:00  15

深度长文|AI大模型的“侦探”与“罪犯”:一场关于学习效率的意外揭秘

当今最先进的大语言模型,以其惊人的文本生成能力改变着世界。从流畅自然的对话,到条理清晰的报告,再到富有创意的故事,它们似乎无所不能。然而,要让这些庞然大物真正“听话”、输出符合人类偏好的结果,仅仅依靠海量数据进行预训练是远远不够的。一个关键的后续步骤——微调(

模型 长文 侦探 罪犯 dpo 2025-05-10 03:02  21